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合 状态 预测 的 深度 强化 学 习 交 通信 号 控制 
唐 莫 阁 ， 周 大 可 '， 李 涛 


(南京 航空 航天 大 学 自动 化 学 院 ， 南 京 211100) 


摘 要 : 深度 强化 学 习 (Deep Reinforcement Learning, DRL) 可 广泛 应 用 于 城市 交通 信号 控制 领域 , 但 在 现 有 研究 中 ， 
绝 大 多 数 的 DRL 智能 体 仅 使 用 当前 的 交通 状态 进行 决策 ， 在 交通 流 变化 较 大 的 情况 下 控制 效果 有 限 。 文 中 提出 一 
种 结合 状态 预测 的 DRL 信号 控制 算法 。 首 先 ， 利 用 独 热 编码 设计 简洁 且 高 效 的 交通 状态 ; 然后 ,使 用 长 短期 记忆 网 
络 (Long Short-Term Memory，LSTM) 预 测 未 来 的 交通 状态 ; 最 后 ， 智 能 体 根 据 当 前 状态 和 预测 状态 进行 最 优 决 策 。 
在 SUMO(Simulation of Urban Mobility) 仿 真 平台 上 的 实验 结果 表明 , 在 单 交 叉 口 、 多 交叉 口 的 多 种 交通 流量 条 件 下 ， 
与 三 种 典型 的 信号 控制 算法 相 比 ， 所 提 算 法 在 平均 等 待 时 间 、 行 驶 时 间 、 燃 油 消耗 、CO2 排放 等 指标 上 都 具有 最 好 
的 性 能 。 

关键 词 : 交通 信号 控制 ; 状态 预测 ; 深度 强化 学 习 ; 深度 Q 网 络 ; 长 短期 记忆 网 络 
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State prediction based deep reinforcement learning for traffic signal control 


Tang Muyao, Zhou Dakei, Li Tao 
(School of Automation Engineering, Nanjing University of Aeronautics & Astronautics, Nanjing 211100, China) 


Abstract: Urban traffic signal control can widely use deep reinforcement learning (DRL) technique. However, in existing 
researches, most DRL agents only use the current traffic state to make decisions and have limited control effects when the 
traffic flow changes greatly. Aiming at the problem, this paper proposed a state prediction based deep reinforcement learning 
algorithm for traffic signal control. The algorithm used one-hot coding to design a concise and efficient traffic state, and then 
used a Long Short-Term Memory (LSTMI to predict the future state. The agent made optimal decisions based on the current 
state and the predicted state. The experimental results on the simulation platform SUMO show that compared with three 
typical signal control algorithms, the proposed algorithm has the best performance in terms of average waiting time, travel 
time, fuel consumption, CO2 emissions and cumulative reward both in a single intersection and multiple intersections under 
different flow conditions. 


Key words: traffic signal control; state prediction; deep reinforcement learning; deep q network; long short-term memory 


2010 年 ,Arel 等 站 首次 将 DRL 引入 交通 信号 控制 领域 ， 
使 用 神经 网 络 拟 合 Q 值 ,但 是 缺少 经 验 回 放 、 目 标 网 络 部 分 。 

随 着 人 们 生活 水 平 的 提高 ， 汽 车 保有 量 持续 增长 ， 城 让 Liu 等 四 提出 3DQN_PSER 算法 ， 使 用 优先 级 序列 经 验 回放 
的 交通 拥堵 问题 也 日 趋 严重 。 交 通信 和 号 控制 是 提高 道路 通 和 (Priority Sequence Experience Replay，PSER) 更 新 经 验 池 中 序 
效率 、 缓 解 交 通 拥堵 最 直接 、 成 本 最 低 的 途径 。SCATSI 和 列 样本 的 优先 级 , 使 智能 体 获取 与 交通 状态 相似 的 前 序 样本 ， 
泛 使 用 的 自 适应 交通 信号 控制 系统 ， 前 者 提高 训练 效率 。Wei 等 中 提出 模型 Intellilight， 使 用 相位 门 结 
选择 信号 配 时 方案 ， 后 者 利用 简化 的 交通 模型 求解 最 优 的 信 构 设 置 独 立 的 学 习 通 道 ,根据 相位 动作 对 经 验 池 进行 划分 ， 
控 策 略 。 但 是 ， 0 经 验方 并 用 真实 的 交通 数据 做 实验 。Zheng 等 四 提出 FRAP 模型 ， 
程 , 因此 ,对 于 复杂 多 变 的 真实 交通 场景 ， 这 类 系统 的 效果 欠 佳 。 利用 不 同 信号 相位 间 的 竞争 关系 ， 实 现 了 在 交通 流 中 翻转 和 
近年 来 ， 随 着 人 工 智 能 技术 的 发 展 ， 强 化 学 习 BIReinforcement 旋转 等 对 称 情况 下 的 普 适 性 。Jin 等 四 使 用 动作 策略 阔 值 词 
Learning，RL) 尤 其 是 数据 驱动 的 深度 强化 学 习 ， 在 交通 信和 号 排序 法 (Threshold Lexicographic Ordering, TLO) 自 适应 地 选择 
控制 方面 展现 出 卓越 的 应 用 前 景 。 优化 目标 ， 基 于 SARSA 算法 对 比 多 种 函数 逼近 方法 的 改善 

强化 学 习 是 一 种 “ 试 错 ”的 学 习 方 法 ， 通 过 与 环境 交互 效果 。Tan 等 0Q0 将 大 规模 路 网 分 为 若干 个 子 区 域 ， 对 每 个 区 
来 学 习 最 优 策略 。 应 用 在 交通 信号 控制 中 ， 可 以 把 一 个 或 几 域 , 使 用 Peraction DQN 或 Wolpertinger DDPG 进行 控制 ， 
个 交叉 口 看 成 一 个 智能 体 (Agenb， 智 能 体 观 测 路 网 状态 后 作 所 有 智能 体 的 学 习 策略 传递 给 全 局 智能 体 实 现 全 局 学 习 。 这 
出 决策 ， 通 过 最 大 化 环境 反馈 的 奖励 以 学 习 最 优 的 信号 配 时 些 DRL 信 控 方法 本 质 上 是 一 阶 马 尔 可 夫 决 策 过 程 ， 智 能 体 
方案 。 受到 人 脑 工 作 模 式 的 启发 , 深度 学 习 册 (Deep Learning， 仅 根据 当前 的 状态 进行 决策 ， 人 
DL) 能 够 把 底层 特征 组 合 形成 更 加 抽象 的 高 层 特征 ， 可 以 有 难以 实现 最 优 的 控制 效果 。 如 果 能 合理 预测 未 来 状态 ， 智 有 
效 处 理 高 维 数据 。 深 度 强 化 学 习 (DRL) 结 合 了 DL 的 强 感知 体 将 提前 考虑 可 能 出 现 的 交通 情况 ， 学 习 更 好 的 信 控 策 了 
能 力 与 RL 的 强 决策 能 力 , 非常 适用 于 交通 信号 控制 的 任务 。 Xu 等 00 提 出 了 DRQN 模型 ， 跨 8 个 时 间 步 长 集成 隐藏 状态 


0 引言 


or 


昌 


| 内 
mn 


cll 


收 稿 日 期 : 2021-12-26; 修 回 日 期 : 2022-03-21 基金 项 目 : 国家 自然 科学 基金 资助 项 目 (62073164); 南京 航空 航天 大 学 研究 生 创 新 基地 (实验 室 ) 开 
放 基 金 资助 项 目 (kfj20200313) 

作者 简介 : 唐 莫 羌 (1997-)， 男 ， 江 苏 泰州 人 ， 硕 士 研 究 生 ， 主 要 研究 方向 为 智能 控制 ; 周 大 可 (1974-)， 男 (通信 作者 )， 江 苏 淮安 人 ， 副 教授 ， 硕 导 ， 
博士 ， 主 要 研究 方向 为 机 器 学 习 、 计 算 机 视觉 与 智能 控制 等 (dkzhou@nuaa.edu.cn); 李涛 (1979-)， 男 ， 安 徽 淮 南 人 ， 副 教授 ， 硕 导 ， 博 士 ， 主 要 研究 方向 
为 网 络 化 多 智能 体系 统 、 网 络 控制 系统 与 飞行 器 控制 . 


chinaXiv:202204.00039v1 


录用 定稿 


| 


测 ， 


峰 的 情形 


1 


以 及 DRL 信号 控制 算法 。 
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本 文 
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是 出 了 一 种 结合 状态 预测 的 深 
算法 DQN_SP， 主 要 特点 有 : 
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了 状态 的 维 数 ， 容 易 导致 


，Chu 等 (外 在 


区 动态 的 交通 信息 ， 但 该 


度 强化 学 习 信号 控 种 
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# ， 然 而 不 同样 本 TD 误差 不 同 ， 对 反 向 传播 


的 影响 也 不 一 样 。 为 了 解决 此 问题 ，Schaul 等 09 基 于 DDQN 
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现实 中 高 低 


本 节 将 介绍 强化 学 习 、 深 度 强化 学 习 的 基本 概念 和 方法 ， 


强化 学 习 


强化 学 习 是 和 有 监督 学 习 、 无 监督 学 习 并 列 的 第 三 类 机 
器 学 习 方 法 ， 智 能 体 通 过 与 环境 不 断交 互 来 学 习 为 了 达成 某 


个 


式 学 习 来 达到 目标 的 型 


标 所 需 的 最 佳 策略 。 马 尔 可 夫 决 策 过 程 是 一 种 通过 交互 
E 论 框架 ， 其 灵活 抽象 ， 可 以 很 好 地 解 


释 强 化 学 习 的 基本 流程 。 智 能 体 根据 当前 策略 ， 以 一 定 概率 
执行 最 优 动 作 并 与 环境 交互 ， 用 动作 价值 函数 4.(s,a) 来 表示 


智能 体 在 状态 s 下 采取 动作 4 的 


1.2 


期 望 回 报 ， 表 示 为 


qa(s,a)=E[G,|S, =s,A, =a]= 


E[2 7'Rinn|S, =8,A, =a] 
k=0 


(1) 


智能 体 在 与 环境 交互 后 学 习 到 最 优 策略 ， 最 优 动 作价 值 
函数 为 在 状态 * 下 采取 动作 “获得 的 最 高 回报 值 ， 根 据 贝尔 
曼 最 优 方程 ， 可 得 : 


05,Q 
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ELR +y max g.(sin,a)|S, =94=q]= 


2 p71s, Or ty max gq.(s,a)] 


不 断 迭 代 最 优 动作 价值 函数 4.(s,@) 后 ， 得 到 最 全 


深度 强化 学 习 


DRL 是 RL 与 DL 的 结合 ， 是 目前 控 


T. =arg max gq, (s,a) 


习 框 架 之 一 。2013 年 DeepMind03] 提 
Learning 使 用 一 张 表 来 保存 所 有 的 Q 
放 来 更 新 目标 价 


(s,a,7,5) 存 入 经 验 池 中 , 从 经 验 池 均匀 采样 小 批量 样本 , 使 用 
随机 梯度 下 降 方法 训练 深度 
样 能 够 打破 样本 间 
同一 个 网 络 来 选择 动作 和 计算 
依赖 , 不 利于 算法 的 收敛 ,为 了 
提出 了 Nature DQNII4， 
FE 、 更 新 参数 ， 目 
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值 ， 两 者 在 迭代 的 过 程 
解决 此 问题 , DeepMind 
网 络 2 用 来 选择 
来 计算 目标 Q 值 ，2 网络 
的 参数 不 需要 实时 迭代 更 新 ， 而 是 每 隔 一 段 时 间 从 当前 网 络 
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向 优化 目标 靠近 , 但 是 很 容易 号 
计 。 为 了 缓解 模型 的 过 拟 合 问题 ，Van Hasselt 等 人 05 提 出 
网 络 2 中 寻找 最 大 Q 值 对 应 的 动作 ,再 
标 Q 值 ， 优 化 目 


y(s,4)=r+7yq(s',arg max gq(s',a';w);w-) 
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上 述 算 法 通过 经 验 回 放 来 训练 深度 Q 网 络 , 在 经 验 池 中 


速度 。 
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的 优先 级 ， 并 将 
的 样本 更 容易 被 采样 
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优先 级 存 入 经 验 池 ， 训 练 时 
避免 没有 价值 的 近代， 提高 
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] LSTM 网 络 拟 合 Q 值 , 利用 
的 变化 趋势 ， 但 是 没有 直接 预 
未 来 的 交通 状态 。 为 了 克服 DQN 无 法 记 住 当前 输入 之 前 
历史 信息 这 一 缺点 ，Xu 等 
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本 文 需要 利用 当前 和 预测 的 交通 状态 进行 决策 ， 
于 DTSE 方法 采 月 
于 仿真 的 交叉 
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PSER 更 新 经 验 ; 
的 样本 数据 更 容易 被 采样 。 上 述 方 法 或 
的 时 序 特性 ， 但 是 没有 对 交通 状态 直接 
E 数 大 ， 容 易 引 发 维 
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ES 


练 出 令 人 满意 的 结果 。 
结合 状态 预测 的 深度 强化 学 习 交 通信 号 控制 算法 
本 文 将 状态 预测 与 DRL 中 的 DQN 算法 相 结 合 ， 


区 式 精心 设计 微观 状态 ， 并 用 
昌 当 前 状态 和 预测 状态 进 
动作 、 奖 励 进行 定义 ， 并 介绍 所 提 算 法 DQN_SP 的 网 络 模型 。 
状态 定义 


i 


们 


也 中 序列 样本 的 人 


先 


且 


采用 独 
LSTM 预测 未 来 的 状 


决策 .本 节 将 对 状态 、 


因此 状 


非 均匀 量化 和 独 热 编 


本 文 | 


口 为 双向 6 车 道 ， 
的 车 道 为 左 转车 道 ， 


寺 


中 间 车 道 为 直行 车 道 ， 


右边 


的 车 道 为 


按照 一 定 长 度 比 


网 


将 


西 进 
一 个 整 


道 为 例 的 元 
本 进行 划分 ， 左 边 的 左 转车 


胞 设计 图 


个 之 又 


四 


车 道 划分 为 元 
。 其 中 ， 


个 方向 的 车 道 将 被 划分 为 


个 元 
则 为 0。 


@@ 中 是 否 有 车 胃 


包 ， 


区 


行 加 右 转车 道 。 本 文 
妈 1 所 示 的 是 以 交叉 


右边 的 两 条 车 道 看 做 
道 单独 进行 划分 ， 这 样 一 


80 个 元 胞 。 状 态 


来 表示 ， 如 有 和 车辆， 状态 取 值 为 1， 


由 图 1 


西 进 


7 米 为 单位 划 


车 ， 可 


道 的 元 胞 设计 民 
分 出 10 个 元 胞 , 其 
以 精确 地 反映 车 辆 分 布 情况 ， 离 交叉 口 


230 米 。 与 


] 实 时 图 


每 
否 


口 附近 以 
容纳 1 辆 


像 吕 或 对 车 道 均匀 划分 59 表示 状态 的 方 
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录用 定稿 唐 幕 光 ， 等 : 

法 相 比 ， 该 方法 使 智能 体 更 关注 靠近 路 口 的 交通 状况 ， 降 低 
了 数据 维度 ， 缩 短 了 计算 时 间 。 以 每 个 元 胞 中 是 否 有 车 辆 作 
为 状态 ， 简 化 交通 信息 ， 能 够 反映 环境 的 主要 特征 ， 即 交叉 
口 附近 的 车 辆 分 布 情况 。 另 外 ， 对 这 种 独 热 编码 形式 的 状态 
进行 预测 ， 可 以 看 成 二 分 类 问题 ， 相 比 于 传统 的 回归 预测 ， 
能 够 提高 预测 准确 率 。 


1lane 
2 lanes 


Fig. 1 
2.2 动作 定义 


智能 体 需 要 根据 交通 ; 


图 1 


交叉 口 西 进口 道 的 元 胞 设计 图 


Cellular design of the west entrance road at the intersection 


天 态 选 择 合 适 的 动作 来 疏导 交通 ， 


本 文 的 动作 定义 为 选择 一 个 可 能 的 信号 相位 。 动 作 集合 


A={NSG,NSLG, EWG, EWLG} ， 分 别 表示 南北 方向 直行 


[0 右 转 绿 


灯 、 南 北方 向 左 转 绿灯 、 东 西方 向 直行 和 右 转 绿灯 、 东 西方 


向 左 转 绿灯 。 每 个 相 
安全 起 见 ， 绿 灯 和 和 铂 


2.3 ”奖励 定义 


并 的 最 短 持续 时 间 设 为 10s， 


[ 灯 切 换 基 


间 会 有 时 长 3 的 黄 灯 。 


同时 为 了 


智能 体 在 1 时 刻 观测 环境 状态 为 s ， 执 行动 作 a 后 得 到 
环境 对 该 动作 的 反馈 ， 用 来 衡量 该 动作 的 质量 , 是 DRL 能 
否 收 敛 以 及 能 否 取 得 良好 效果 的 关键 。 本 文 奖 励 定义 为 相 
邻 时 间 步 的 所 有 车 道 车 辆 排队 长 度 之 差 : 

i=04,— qn (6) 
其 中 4 表示 上 时 刻 路 网 中 所 有 车 道 的 排队 长 度 之 和 ， gq 表示 
下 一 时 间 步 所 有 和 车道 的 排队 长 度 之 和 ， x 为 系数 ， 通 过 多 次 


实验 后 设 为 0.9。 
2.4 结合 状态 预测 的 DRL 信 控 算法 (DQN_SP) 


本 文 所 提 算 法 DQN_SP 采用 
s, ， 并 将 其 与 当前 状态 s 是 


体 ，DRL 算法 


LSTM 预测 未 来 微观 状态 
联 ， 作 为 增 广 状 态 输 入 DRL 智能 


使 用 传统 的 DQNI 引 ， 由 在 验证 结合 状态 预测 


后 算法 的 


效 性 与 可 行 性 
最 优 动作 价值 函数 的 优化 目 


标 表 示 为 


y(s,5p,4) =r+y max gq(s',s, va) 


E.DQN _SP 的 网 络 结构 如 图 2 所 示 ， 


0) 


Pp 


en 和 
本 
Hidden layers 
2 计 寺 反 
辐 国 加 本 A 
Current state s @ Predictive state s 
Lstm 


Environment 


图 


2 DQN SP 的 网 络 结构 


Fig.2 The network structure of DQN_SP 
DQN_SP 的 算法 流程 如 下 所 示 。 
初始 化 深度 @ 网 络 、LSTM 网 络 、 经 验 池 


for episode = 1 to M do 


和 
2 
3 初始 化 路 网 环境 ， 导 入 车 流 数据 
4 


fort=1toT do 
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智能 体 基于 < 


5 智能 体 观测 当前 环境 状态 s 

6 LSTM 预测 n 个 时 间 步 后 的 微观 状态 5， 

7 当前 状态 与 预测 状态 串联 后 输入 DQN 智能 体 ， 
贪 禁 策 略 执行 动作 a 

8 智能 体 进 入 新 的 状态 s' ， 根 据 式 (6) 计 算 奖 励 7 
9 LSTM 预测 n 个 时 间 步 后 的 微观 状态 ww 

16 将 样本 (8,spamsvsp ) 存 入 经 验 池 中 

11 end for 

12 从 经 验 池 中 抽取 样本 训练 网 络 


13 根据 式 (7) 计 算 优化 


标 ， 使 


网 络 参 数 w 
14 使 
15 end for 


3 ”实验 结果 与 分 析 


本 节 首 先 介 绍 实验 的 仿 


基准 算法 FTC、SOTL、DQN, 最 后 在 单 交 义 口 、 多 交叉 
多 种 流量 条 件 下 验证 了 算法 DQN_SP 的 有 效 性 。 


3.1 仿真 环境 与 超 参数 设置 


SUMO 是 免费 开源 的 


Traci(Traffic Control Interface) 接 


交互 ， 实 


交通 系统 仿真 软件 


均 方 误差 损失 函数 更 新 深度 Q 


二 值 交 叉 粒 损 失 函 数 更 新 LSTM 网 络 参 数 9 


环境 与 算法 超 参数 ， 然 后 介绍 


口 的 


其 中 的 


口 可 以 与 多 种 开发 环境 在 线 
岗 对 交通 信和 号 的 控制 。 本 文 以 Ubuntu GeForce RTX 


2080 GPU 作为 硬件 环境 ， 算 法 通过 深度 学 习 框架 Keras 实 
现 ， 在 SUMO v1.6.0 下 进行 仿真 实验 。 
交叉 口 设置 : 本 文 在 单 交 叉 口 和 多 交叉 口 两 种 场景 下 分 


别 进行 仿真 。 交叉 口 


由 4 条 垂直 


米 ， 为 双向 六 车 道 ， 沿 着 车 四 


的 行驶 方 


的 道路 组 成 , 每 条 道路 长 500 
句 左边 为 左 转车 道 ， 中 


间 为 直行 车 道 ， 右 边 为 直行 加 
的 交叉 口 组 成 的 2 义 2 


字形 路 网 ， 路 口 


右 转 车 道 。 


多 交叉 


为 4 个 相同 


配置 同 单 交 叉 口 。 


交通 流 设置 : 车 辆 生成 t 


f(x;4,a)=144 
0 


其 中 4 是 比例 参数 设 为 1，。 


辆 集中 在 某 一 段 时 间 内 进入 路 网 
氏 峰 的 情形 。 车 辆 从 任意 入 口 进入 路 网 , 以 75% 的 概率 直行 ， 
12.5% 的 概率 左 转 ，12.5% 的 概率 右 转 。 车 各 


的 方式 对 交通 


和 Core x >0 


x<0 


信号 控制 有 


着 重要 
的 影响 ， 本 文中 车 辆 的 生成 服从 韦伯 分 布 ， 其 概率 密度 函数 为 


是 形状 参数 设 为 2, 绝 大 多 数 车 


入 吕 


以 模拟 现实 生活 中 高 峰 


而 长 5 m ， 加 速度 


为 1m/s? ,以 36 pn/h 的 速度 进入 路 网 ,最 大 速度 为 50 pn/h， 


车 辆 之 间 最 小 间距 为 2.5m。 


置 如 下 。 训 练 世 
隐藏 层 数 为 5， 宽 度 为 400， 


超 参 数 设置 : 参照 文献 [7, 9，19] 
合 数 设 为 100， 算 法 使 用 


结合 实验 ， 超 参数 设 


采用 Adam 


0.001， 批 处 理 大 小 为 80， 每 


误差 作为 损失 函数 。 预 测 网 络 使 
经 元 个 数 为 80， 采 
里 大 小 为 128， 每 回合 训练 欠 代 1 次 ， 采 | 


元 有 3 个 LSTM 
批 处 


民 ， 记 


DNN 评估 Q 值 ， 

优化 器 ， 学 习 率 为 
可 合 训练 迭代 800 次 , 采用 均 方 
j 6 个 LSTM 单元 ， 每 个 单 
j Adam 优化 器 ， 


二 值 交 叉 炳 


作为 损失 函数 。RL 经 验 池 尺寸 最 小 为 600， 最 大 为 50000， 


折扣 因子 为 0.75， 使 用 = 贪 禁 算法 输出 动作 。 
3.2 实验 评估 与 结果 分 析 

本 文 在 单 交 叉 口 和 多 交叉 口 两 种 场景 下 分 别 实验 。 对 于 
单 交 叉 口 , 仿真 时 长 为 5400*, 进入 路 网 的 车 辆 数目 为 500、 


1000、1500， 分别 对 应 低 、 中 、 高 


三 种 流量 条 件 。 对 于 多 交 


又 


3000， 分 别 对 应 低 、 高 两 种 流量 条 件 。 对 了 


用 随机 种 子 seed 生成 20 组 


均等 待 时 间 、 平 均 行驶 时 间 、 平 
平均 累计 奖励 作为 算法 的 性 能 指标 。 其 中 ， 


,仿真 时 长 也 为 5400; ,进入 路 网 的 车 辆 


设 为 2000、 


数 
F 每 种 流量 条 件 ， 
车 流 数据 ，20 组 数据 下 车 辆 的 平 
平均 燃油 消耗 、 平 均 CO? 排 放 、 
平均 等 等 时 间 主 
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为 主要 指标 ， 平 均 行驶 时 间 、 
标 。 所 提 算 法 对 1、5、10 个 时 间 步 后 的 状态 进行 预测 ， 
记 为 DQN SP 1、DQN SP 5、DQN SP 10。 为 了 验证 预 》 
的 有 效 性 ， 将 DQN_SP 与 下 列 基准 算法 进行 比较 : 


要 来 自 于 车 辆 排队 时 消耗 的 时 间 , 与 定义 的 奖励 相关 性 最 强 ， 
燃油 消耗 、CO; 排放 为 次 要 指 
分 另 
则 


| 


固定 配 时 控制 (Fixed-time Control，FTC)。FTC 根据 经 


的 韦伯 斯 特 配 时 法 P53 预 先 定义 一 套 配 时 方案 , 广泛 应 用 于 现 


实 交通 场景 中 。 


, 若 绿 灯 方 向 一 定 距离 内 车 辆 数 过 多 , 则 延长 绿灯 时 长 。 


基于 DQN 的 交通 信号 控制 。 
相同 的 DQN 算法 中 ， 唯 一 区 别 在 于 

所 以 网 络 输入 维度 减 半 ， 其 余 超 参 数 设 
作 、 奖 励 定义 与 DQN_SP 相同 。 
图 3 是 在 单 交叉 口中 流量 条 件 下 ， 训 练 与 测试 过 程 中 ， 


以 及 状态 


党 
芝 


出 了 在 单 交 叉 口 中 流量 条 件 1 


在 训练 的 初始 阶段 ， 
有 学 到 正确 的 控制 策略 ， 
着 训练 的 进行 ， 交 叉 口 


所 以 平均 等 待 时 间 会 大 幅 
通行 状况 逐渐 好 转 ， 最 终 趋 于 平稳 。 


10 步 后 的 状态 ，DQN _SP 的 性 能 


车 辆 平均 等 待 时 间 减 少 了 6.06%， 累 计 奖 励 提 高 了 5.61%。 
然而 在 行驶 时 间 、 燃 油 消耗 、CO; 排放 这 三 个 次 要 指标 上 ， 
DQN SP 1 改善 


自 组 织 交 通 灯 (Self-organizing Traffic Lights,，SOTL)[261。 
红 灯 方 向 的 排队 长 度 达 到 阔 值 时 ， 该 方向 的 信号 灯 就 变 成 
灯 


使 用 与 所 提 算 法 DQN_SP 
其 不 对 未 来 状态 进行 预 
、 动 


各 算法 的 累计 奖励 对 比 和 车 辆 平均 等 待 时 间 对 比 。 图 3(a) 给 

下 ，DQN_SP 与 DQN 在 训练 过 
程 中 的 累计 奖励 对 比 ， 两 者 区 别 不 大 。 可 见 ， 增 加 了 状态 预 
测 ， 不 会 降低 算法 的 收敛 速度 ， 也 不 会 削弱 算法 稳定 性 。 图 
3(b) 表 示 DQN_SP 与 三 种 基 ; ee 闻 对 比 。 
于 经 验 池 中 的 样本 太 少 ， 智 能 体 还 没 
上 升 ， 随 


训练 好 的 模型 在 随机 生成 的 20 组 车 流 数据 下 进行 测试 ， 

平均 性 能 如 表 1 所 列 ， 可 以 看 出 无 论 是 预测 1 步 、5 步 还 是 
都 比 FTC、SOTL、DQN 更 
加 优越 , 上 且 在 主要 指标 上 ,DQN SP 5 改善 最 多 , 相 比 于 DQN， 


效果 最 明显 。 图 3(c) 表 示 DQN_SP_5 与 DQN 


在 20 次 测试 中 的 累计 奖励 对 比 ， 图 3(d) 表 示 DQN SP 5 与 
三 种 基准 算法 的 车 辆 平均 等 待 时 间 对 比 。 结 果 显 示 ， 相 较 于 


传统 的 FTC、SOTL 信和 号 控制 ， 基 于 DRL 的 方法 在 缩短 车 下 


] 


的 等 待 时 间 上 效果 显著 , 且 在 18 次 测试 中 , DQN SP 5 的 控 


制 效果 均 优 于 DQN。 
长 2 单 交 叉 口 低 流 量 条件 下 算法 的 性 能 


Tab. 2 ”Performance of algorithms under the condition of low traffic 


flow at an intersection 


Algorithm Waiting Travel Fuel CO» Cumulative 
time/s time/s consumption/ml emissions/g reward 
FTC 17.73 101.64 87.99 204.69 \ 
SOTL 8.78 ”92.31 77.86 181.12 \ 
DQN 7.98 90.82 76.49 177.93 -37.11 
DQN SP 1 7.57 90.29 75.78 176.29 -35.54 
DQN SP 5 7.41 89.97 75.41 175.42 -34.59 
DQN SP 10 7.73 90.45 75.94 176.67 -36.07 
表 3 单 交 叉 口 高 流量 条 件 下 算法 的 性 能 


Tab. 3 Performance of algorithms under the condition of high traffic 


flow at an intersection 


Algorithm Waiting Travel Fuel CO» Cumulative 
time/s time/s consumption/ml emissions/g reward 
FTC 22.75 109.20 95.60 222.40 \ 
SOTL 25.13 114.17 99.06 230.45 \ 
DQN 16.16 102.67 88.72 206.39 -207.04 
DQN SP 1 15.40 101.88 87.85 204.37 -197.53 
DQN SP 5S 15.15 101.53 87.58 203.73 -194.86 
DQN SP 10 14.68 101.09 87.08 202.58 -189.16 


， 等 : 结合 状态 预测 的 深度 强化 学 习 交 通信 号 控制 
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(oc) 测试 过 程 中 算法 DQN 和 DQN SP 5 的 累计 奖励 对 比 


Average waiting time 
已 
A 


这 > 


时 和 5 


Testing times 


本 二 全 
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(qd) 测 试 过 程 中 各 算法 的 车 辆 平均 等 待 时 间 对 比 


图 3 各 算法 的 累计 奖励 对 比 和 车 辆 3 


均等 待 时 间 对 比 


Fig.3 ” Comparison of cumulative rewards of algorithms and 


comparison of average waiting time of vehicles 


用 一 个 智能 全 


有 效 性 ， 因 此 ， 使 用 


本 文 还 在 多 交叉 口 场景 下 进行 
空 制 。 本 文 则 在 验 订 


简单 的 多 智能 体 协 作 策 略 : 采用 


实验 ， 每 个 交叉 口 信号 都 
FE 结合 状态 预测 的 DRL 的 


空间 折 


扣 因子 削弱 来 自 其 他 交叉 口 的 奖励 ， 当 前 交叉 口 奖 励 权重 为 


0.5， 邻 居 交 叉 口 为 0.2， 对 角 交 叉 口 为 0.1。 


秒 , 进入 路 网 的 车 辆 数 


量 和 高 流量 , 表 4、5 列 


在 高 流量 情况 下 ，SOTL 控 
随机 的 时 候 ， 车 辆 驱动 的 控 
下 ，DQN SP 5 的 改善 


间 减 少 8.82%, 累计 奖 


设 为 2000、3000 辆 ， 
出 了 算法 在 20 次 测试 
制 效果 糟糕 ， 因 为 当 交 通 流 高 度 
制 方法 很 难 奏效 。 在 低 流 量 条 件 


仿真 时 长 5400 


分 别 对 应 低 流 


的 平均 性 能 。 


效果 最 好 ， 相 比 于 DQN, 平均 等 待 时 


励 提高 8.11%, 然而 在 高 流量 条 件 下 ， 


录用 定稿 


| 


效果 最 好 ， 平 均等 待 时 间 减 少 4.92%， 累 
此 可 见 ， 随 着 车 流量 变 大 ， 需要 对 更 


DQN SP _10 的 改善 
a 


多 时 间 步 后 的 状态 进行 预测 , 以 更 有 效 地 学 习 交通 变化 趋势 ， 
所 高 通行 能 力 ， 


表 4 多 交叉 口 低 流量 条 件 下 算法 的 性 能 


Tab.4 Performance of algorithms under the condition of 


low traffic flow at multiple intersections 


唐 慕 竞 ， 等 : 结合 状态 预测 的 深度 强化 学 习 交 通信 号 控制 


Algorithm Waiting Travel Fuel CO» Cumulative 
time/s time/s consumption/ml emissions/g reward 
FTC 45.05 177.37 157.77 367.03 \ 
SOTL 29.15 158.72 136.97 318.63 \ 
DQN 21.54 151.11 129.86 302.11 -371.72 
DQN SP 1 20.23 149.39 128.01 297.79 -350.65 
DQN SP 5 19.64 148.78 127.39 296.34 -341.59 
DQN SP 10 20.27 149.46 128.06 297.92 -351.12 


表 5 多 交叉 口 高 流量 条 件 下 算法 的 性 能 


Tab.5 Performance of algorithms under the condition of 


high traffic flow at multiple intersections 


Algorithm Waiting Travel Fuel CO> Cumulative 
time/s time/s consumption/ml emissions/g reward 
FTC 51.05 185.78 166.42 387.14 \ 
SOTL 61.47 204.15 178.84 416.02 \ 
DQN 34.36 167.89 147.45 343.02 -836.09 
DQN SP 1 33.23 166.81 146.37 340.51 -811.05 
DQN SP 5 32.87 166.60 146.19 340.08 -803.14 
DQN SP 10 32.67 166.59 146.02 339.68 -797.98 


综 上 所 述 ， 相 较 于 基准 算法 ，DQN_SP 在 单 交 叉 和 多 
又 口 的 场景 下 都 能 学 习 更 好 的 信号 控制 策略 ， i 


L 
要 预测 更 多 时 间 步 后 的 状态 以 获得 更 好 的 控制 效果 。 
结束 语 


本 文 利 用 了 交通 数据 的 时 序 相 关 性 ， 提 出 结合 状态 预测 
的 深度 强化 学 习 交 通信 号 控制 算法 DQN_SP， 通 过 提取 高 维 
交通 特征 ， 并 对 未 来 微观 状态 进行 预测 ， 在 单 交 叉 口 、 多 交 
叉 口 以 及 多 种 流量 条 件 下 都 取得 了 更 好 的 信 控 效果 。 与 FTC、 
SOTL、DQN 算法 相 比 ，DQN_SP 在 平均 等 待 时 间 、 行 驶 时 
间 、 燃 油 消耗 、CO; 排放 方面 具有 提升 。 未 来 本 文 将 进一步 
研究 将 状态 预测 与 更 先进 的 DRL 算法 (如 TD3、SAC 等 ) 相 结 
并 使 用 真实 的 交通 数据 进行 验证 。 
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